2 MetodologĆ­a

El presente estudio siguió un enfoque de aprendizaje supervisado orientado a la clasificación binaria (pagado / incumplido). El procedimiento general consistió en aplicar dos familias de clasificadores (Logit y KNN) sobre datos previamente preparados, y evaluar su desempeño mediante métricas complementarias y procedimientos de validación.

La implementación se realizó en R empleando flujos estandarizados de preprocesamiento y modelado. Para reducir la influencia de escalas dispares y valores extremos, se aplicaron filtros sobre outliers relevantes y se normalizaron las variables numéricas (centrado y escala) cuando correspondió; dicho escalado fue especialmente crítico para KNN, dada su dependencia de distancias euclidianas. La muestra final fue construida de forma estratificada para asegurar balance entre las clases objetivo, y todas las operaciones aleatorias (muestreo y particionado); ademÔs, se fijó la semilla (set.seed(28)) para garantizar reproducibilidad.

En cuanto al ajuste de modelos, la regresión logĆ­stica se estimó mediante glm(…, family = binomial()), obteniendo probabilidades predictivas que permitieron tanto el anĆ”lisis de coeficientes como la construcción de curvas ROC y la determinación de umbrales operativos (Ć­ndice de Youden). El KNN se abordó de dos maneras; una implementación bĆ”sica con class::knn, evaluando k en un rango (k = 1:100) y seleccionando el k que maximizó la exactitud fuera de muestra; y una versión integrada en caret::train() que incorporó validación cruzada estratificada (5 folds), bĆŗsqueda automĆ”tica de hiperparĆ”metros (tuneLength) y optimización segĆŗn el AUC (mĆ©trica ROC), lo que permitió una selección de modelo mĆ”s robusta frente a la variabilidad de los datos.

2.1 Definición de las variables

Las variables utilizadas en el estudio se organizan en dos grupos: dependientes e independientes. La variable dependiente seleccionada es el estado de pago de la persona (Estado), construida a partir del indicador Default y se codificó como factor con niveles ā€œPagadoā€ (no default) y ā€œIncumplidoā€ (default). Esta variable refleja el resultado del contrato crediticio y es una medida directa del riesgo de incumplimiento, por lo que su correcta definición y codificación es central para cualquier ejercicio de scoring, ya que no solo indica la ocurrencia del impago, sino que tambiĆ©n sirve como referencia para estimar probabilidades de default y calibrar los umbrales de decisión en procesos de aprobación crediticia.

Entre las variables independientes se incorporaron predictores financieros y de propósito del préstamo que, según la teoría del riesgo y la prÔctica del credit scoring, guardan relación con la capacidad de pago y la propensión al incumplimiento. El ingreso anual declarado por el solicitante Ingreso se emplea como variable de la capacidad de repago; a mayor ingreso disponible se espera una menor probabilidad de default, dado que permite absorber obligaciones adicionales y enfrentar eventos adversos sin perder la capacidad de servicio de la deuda. No obstante, la medida declarativa del ingreso puede presentar sesgos por subdeclaración o variabilidad temporal, por lo que su interpretación debe hacerse con cuidado.

La Relacion deuda/ingreso sintetiza la carga financiera del solicitante al relacionar obligaciones vigentes con su ingreso. Un DTI (Debt-to-Income, que viene siendo la relación deuda/ingreso) elevado indica que una fracción significativa del ingreso ya estÔ comprometida con otras deudas, lo que incrementa la vulnerabilidad ante shocks y aumenta la probabilidad de incumplimiento. Se toma en cuenta ya que permite captar no solo la magnitud del endeudamiento sino también la presión relativa sobre la liquidez del hogar o individuo.

El monto solicitado Monto prestamo incorpora la dimensión contractual del crédito, que son los préstamos de mayor cuantía: los cuales, sin ajustes proporcionales en condiciones o capacidad de pago, tienden a elevar el riesgo de default por aumentar la carga mensual y alargar el horizonte de exposición. AdemÔs, el monto solicitado puede interactuar con otras variables (por ejemplo, ingreso o FICO) para dibujar perfiles diferenciados de riesgo. Su inclusión facilita distinguir situaciones en las que un mismo monto resulta asumible o riesgoso según el contexto financiero del solicitante.

El puntaje crediticio Puntaje FICO funciona como un indicador consolidado del historial crediticio y de la probabilidad observada de cumplimiento en períodos previos. Puntajes mÔs altos se asocian sistemÔticamente con menor probabilidad de impago, pues reflejan comportamientos de pago estables, menor incidencia de morosidad previa y hÔbitos financieros mÔs conservadores. Por su carÔcter informativo y su uso extendido en la industria, el puntaje FICO aporta a la discriminación del riesgo y suele mostrar efectos significativos en modelos paramétricos y no paramétricos.

El propósito del préstamo reagrupado Proposito agrupado captura el destino del crédito, como lo puede ser una consolidación de deuda, compra de vivienda o vehículo, inversión en negocio, educación. Refleja diferencias cualitativas en la naturaleza y prioridad del gasto. Distintos propósitos implican perfiles de riesgo heterogéneos, es decir, un préstamo para consolidación de deuda puede indicar una situación financiera tensionada, mientras que un préstamo para inversión productiva o educación puede asociarse a retornos que faciliten el repago.

variables_modelo <- data.frame(
  Variable = c("Estado", "Ingreso", "Relación deuda/ingreso",
               "Monto préstamo", "Puntaje FICO", "Propósito", "Binaria"),
  
  Descripción = c(
    "Variable dependiente que representa el resultado final del crƩdito.",
    "Ingreso anual declarado por el solicitante, indicador de capacidad de pago.",
    "Ratio financiero que mide la carga de endeudamiento frente al ingreso.",
    "Valor del prƩstamo solicitado por el cliente.",
    "Puntaje crediticio que resume el historial de crƩdito del solicitante.",
    "Motivo declarado del prƩstamo, agrupado en categorƭas mayores.",
    "Versión numérica de la variable dependiente usada en el modelo."
  ),
  
  Tipo_Variable = c(
    "Categórica (binaria)",
    "Cuantitativa continua",
    "Cuantitativa continua",
    "Cuantitativa continua",
    "Cuantitativa continua",
    "Categórica (agrupada)",
    "Binaria (numƩrica)"
  ),
  
  Ejemplos_Notas = c(
    "Ej: 'Pagado', 'Incumplido'.",
    "En dólares anuales.",
    "Proporción (ej. 0.35).",
    "Monto del prƩstamo en USD.",
    "Rango tĆ­pico: 300 – 850.",
    "Ej: 'Consolidación', 'Negocio', 'Otros'.",
    "0 = Paga, 1 = No paga."
  )
)

# Versión corregida - sin text_align
tabla_variables <- kable(
  variables_modelo,
  format = "html",
  col.names = c("Variable", "Descripción", "Tipo de Variable", "Ejemplos / Notas"),
  align = c('l', 'l', 'l', 'l'),
  caption = "Tabla 1. Variables utilizadas en el Modelo de Riesgo Crediticio"
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  row_spec(0, background = "#990000", color = "white", bold = TRUE) %>%
  row_spec(1:7, background = "#FFFDF5") %>%
  column_spec(1, bold = TRUE, width = "3cm") %>%
  column_spec(2, width = "6cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3.5cm") %>%
  footnote(
    general = "Elaboración propia con base en el dataset Lending Club (2007-2018).",
    general_title = "Fuente: ",
    footnote_as_chunk = TRUE
  )

tabla_variables
Tabla 1. Variables utilizadas en el Modelo de Riesgo Crediticio
Variable Descripción Tipo de Variable Ejemplos / Notas
Estado Variable dependiente que representa el resultado final del crĆ©dito. Categórica (binaria) Ej: ā€˜Pagado’, ā€˜Incumplido’.
Ingreso Ingreso anual declarado por el solicitante, indicador de capacidad de pago. Cuantitativa continua En dólares anuales.
Relación deuda/ingreso Ratio financiero que mide la carga de endeudamiento frente al ingreso. Cuantitativa continua Proporción (ej. 0.35).
Monto prƩstamo Valor del prƩstamo solicitado por el cliente. Cuantitativa continua Monto del prƩstamo en USD.
Puntaje FICO Puntaje crediticio que resume el historial de crĆ©dito del solicitante. Cuantitativa continua Rango tĆ­pico: 300 – 850.
Propósito Motivo declarado del prĆ©stamo, agrupado en categorĆ­as mayores. Categórica (agrupada) Ej: ā€˜Consolidación’, ā€˜Negocio’, ā€˜Otros’.
Binaria Versión numérica de la variable dependiente usada en el modelo. Binaria (numérica) 0 = Paga, 1 = No paga.
Fuente: Elaboración propia con base en el dataset Lending Club (2007-2018).

2.2 Base de datos

2.3 Base de datos

3 Analisis descriptivo

3.1 DiseƱo del Estudio

4 Resultados y Discusión

4.1 AnƔlisis de Correlaciones

# Matriz de correlación mejorada
library(plotly)

cor_data <- round(cor(mtcars), 3)

plot_ly(
  x = colnames(cor_data),
  y = colnames(cor_data),
  z = cor_data,
  type = "heatmap",
  colorscale = list(
    c(0, "#f8f0ef"),
    c(0.5, "#b74a4a"),
    c(1, "#7a1c1c")
  ),
  hoverinfo = "x+y+z",
  colorbar = list(
    title = "Coeficiente",
    titleside = "right"
  )
) %>% 
  layout(
    title = list(
      text = "<b>Matriz de Correlación - AnÔlisis Multivariable</b>",
      font = list(family = "Playfair Display", size = 16, color = "#7a1c1c")
    ),
    xaxis = list(tickangle = -45, tickfont = list(family = "Source Serif Pro")),
    yaxis = list(tickfont = list(family = "Source Serif Pro")),
    margin = list(l = 100, r = 50, b = 100, t = 80)
  )

4.1.1 Interpretación de Resultados

Los coeficientes de correlación evidencian relaciones significativas entre las variables analizadas. Particularmente, se observa una correlación negativa pronunciada entre el peso del vehículo y su eficiencia energética (r = -0.868), consistente con hallazgos reportados en la literatura especializada.

5 Conclusiones

5.1 Hallazgos Principales

  1. Relación inversa significativa entre masa vehicular y eficiencia de combustible
  2. Patrón consistente en la distribución de características técnicas
  3. Validación empírica de los postulados teóricos establecidos

5.2 Implicaciones PrƔcticas

Los resultados obtenidos proporcionan evidencia cuantitativa para el desarrollo de polƭticas de eficiencia energƩtica y diseƱo vehicular optimizado.